缩放点积注意力 (Scaled Dot-Product Attention)

一步步观察注意力机制如何计算上下文向量

1. 输入向量 (Inputs)

↓

衡量 Query 和每个 Key 的相关性

↓

除以维度的平方根, 防止梯度消失

√d_k

↓

将分数转换为概率分布, 实现“聚焦”

→

↓

根据注意力权重, 从 Values 中提取信息